智能论文笔记

SoK: Privacy Preserving Machine Learning using Functional Encryption: Opportunities and Challenges

Prajwal Panzade , Daniel Takabi

分类：机器学习

2022-04-11

随着功能加密的出现，已经出现了加密数据计算的新可能性。功能加密使数据所有者能够授予第三方访问执行指定的计算，而无需透露其输入。与完全同态加密不同，它还提供了普通的计算结果。机器学习的普遍性导致在云计算环境中收集了大量私人数据。这引发了潜在的隐私问题，并需要更多私人和安全的计算解决方案。在保护隐私的机器学习（PPML）方面已做出了许多努力，以解决安全和隐私问题。有基于完全同态加密（FHE），安全多方计算（SMC）的方法，以及最近的功能加密（FE）。但是，与基于FHE的PPML方法相比，基于FE的PPML仍处于起步阶段，并且尚未受到很多关注。在本文中，我们基于FE总结文献中的最新作品提供了PPML作品的系统化。我们专注于PPML应用程序的内部产品FE和基于二次FE的机器学习模型。我们分析了可用的FE库的性能和可用性及其对PPML的应用。我们还讨论了基于FE的PPML方法的潜在方向。据我们所知，这是系统化基于FE的PPML方法的第一项工作。

translated by 谷歌翻译

Chromosome Segmentation Analysis Using Image Processing Techniques and Autoencoders

Amritha S Pallavoor , Prajwal A , Sundareshan TS , Sreekanth K Pallavoor

分类：计算机视觉

2022-09-12

中期图像的染色体分析和鉴定是基于细胞遗传学的医学诊断的关键部分。它主要用于识别遗传疾病和疾病的宪法，产前和获得异常。从中期鉴定染色体的过程是一个乏味的过程，需要训练有素的人员和几个小时才能进行。挑战尤其是在中期图像中处理触摸，重叠和聚集的染色体方面存在挑战，如果未正确进行分割，则会导致错误的分类。我们提出了一种自动化从给定的中期图像的检测和分割过程的方法，并在使用深层CNN体系结构中对其进行分类以了解染色体类型。我们已经使用了两种方法来处理中期中发现的重叠染色体的分离 - 一种涉及流域算法的方法，其次是自动编码器，另一种纯粹基于流域算法的方法。这些方法涉及自动化和非常最小的手动努力来执行分割，从而产生输出。手动努力确保了人类的直觉得到考虑，尤其是在处理触摸，重叠和聚类染色体时。分割后，使用深CNN模型将单个染色体图像分类为95.75 \％精度。此外，我们将分布策略从给定输出（通常可以在正常情况下的46个单个图像组成）中分类为单个类别，准确性为98 \％。我们的研究有助于得出结论，通过图像处理技术可以将参与染色体分割的纯手动努力自动化至非常好的水平，从而产生可靠且令人满意的结果。

translated by 谷歌翻译

PixTrack: Precise 6DoF Object Pose Tracking using NeRF Templates and Feature-metric Alignment

Prajwal Chidananda , Saurabh Nair , Douglas Lee , Adrian Kaehler

分类：计算机视觉 | 人工智能 | 机器学习 | 机器人

2022-09-08

我们提出了PIXTRACK，这是一种基于视觉的对象姿势跟踪框架，并使用新型视图合成和深度特征 - 金属对齐。我们的评估表明，我们的方法产生了RGB图像中对象的高度准确，健壮和无抖动的6DOF姿势估计，而无需任何数据注释或轨迹平滑。我们的方法还在计算上有效，可以轻松进行多对象跟踪，而不会改变我们的方法，而只是使用CPU多处理。

translated by 谷歌翻译

Lip-to-Speech Synthesis for Arbitrary Speakers in the Wild

Sindhu B Hegde , K R Prajwal , Rudrabha Mukhopadhyay , Vinay P Namboodiri , C. V. Jawahar

分类：计算机视觉 | 自然语言处理

2022-09-01

在这项工作中，我们解决了为野外任何演讲者发出静音唇部视频演讲的问题。与以前的作品形成鲜明对比的是，我们的方法（i）不仅限于固定数量的扬声器，（ii）并未明确对域或词汇构成约束，并且（iii）涉及在野外记录的视频，反对实验室环境。该任务提出了许多挑战，关键是，所需的目标语音的许多功能（例如语音，音调和语言内容）不能完全从无声的面部视频中推断出来。为了处理这些随机变化，我们提出了一种新的VAE-GAN结构，该结构学会了将唇部和语音序列关联到变化中。在指导培训过程的多个强大的歧视者的帮助下，我们的发电机学会了以任何人的唇部运动中的任何声音综合语音序列。多个数据集上的广泛实验表明，我们的优于所有基线的差距很大。此外，我们的网络可以在特定身份的视频上进行微调，以实现与单扬声器模型相当的性能，该模型接受了$ 4 \ times $ $数据的培训。我们进行了大量的消融研究，以分析我们体系结构不同模块的效果。我们还提供了一个演示视频，该视频与我们的网站上的代码和经过训练的模型一起展示了几个定性结果： -合成}}

translated by 谷歌翻译

HTML版本

Automatic dense annotation of large-vocabulary sign language videos

Liliane Momeni , Hannah Bull , K R Prajwal , Samuel Albanie , Gül Varol , Andrew Zisserman

分类：计算机视觉

2022-08-04

最近，手语研究人员已转向手语解释的电视广播，包括（i）连续签名的视频和（ii）与音频内容相对应的字幕，作为易于使用和大规模的培训数据来源。此类数据可用性的一个关键挑战是缺乏标志注释。利用这种弱对准数据的先前工作仅发现字幕中的关键字与单个符号之间的稀疏对应关系。在这项工作中，我们提出了一个简单，可扩展的框架，以极大地增加自动注释的密度。我们的贡献如下：（1）我们通过使用同义词和字幕签名对齐来显着改善先前的注释方法；（2）我们将标志识别模型中的伪标签的价值作为标志发现的方式；（3）我们提出了一种新的方法，以增加基于内域示例的已知和未知类别的注释；（4）在Bobsl BSL手语语料库上，我们将自信自动注释的数量从670K增加到5M。我们将这些注释公开用于支持手语研究社区。

translated by 谷歌翻译

Sub-word Level Lip Reading With Visual Attention

K R Prajwal , Triantafyllos Afouras , Andrew Zisserman

分类：计算机视觉 | 自然语言处理

2021-10-14

本文的目标是学习强烈的唇读模型，可以在静音视频中识别语音。大多数事先有效地处理开放式视觉语音识别问题，通过调整在漫步的可视化功能之上的现有自动语音识别技术。相反，在本文中，我们专注于唇读中遇到的独特挑战，并提出量身定制的解决方案。为此，我们提出以下贡献：（1）我们提出了一种基于关注的汇集机制来聚合视觉语音表示; （2）我们首次使用Sub-Word单元进行唇读，并显示这使我们能够更好地模拟任务的含糊不限; （3）我们提出了一种用于视觉语音检测（VSD）的模型，在唇读网络顶部培训。在上文之后，我们在公共数据集训练时获得最先进的LRS2和LRS3基准，甚至通过使用更少的数据量级验证的大规模工业数据集培训的型号。我们最好的模型在LRS2数据集中实现了22.6％的字错误率，这是唇读模型前所未有的性能，显着降低了唇读和自动语音识别之间的性能差距。此外，在AVA-ActiveSpeaker基准测试中，我们的VSD模型超越了所有可视基线，甚至优于最近的几种视听方法。

translated by 谷歌翻译

TreeGCN-ED: Encoding Point Cloud using a Tree-Structured Graph Network

Prajwal Singh , Kaustubh Sadekar , Shanmuganathan Raman

分类：计算机视觉

2021-10-07

点云是代表和存储3D几何数据的广泛使用的技术之一。在过去，已经提出了几种用于处理点云的方法。诸如PointNet和FoldingNet之类的方法已显示出3D形状分类和分割等任务的有希望的结果。这项工作提出了一个树结构化的自动编码器框架，以使用图形卷积利用层次信息来生成点云的强大嵌入。我们执行多个实验，以评估提出的编码器体系结构生成的嵌入质量，并可视化T-SNE映射，以突出显示其区分不同对象类的能力。我们进一步证明了所提出的框架在以下应用程序中的适用性：3D点云完成和基于单图的3D重建。

translated by 谷歌翻译

LS-HDIB: A Large Scale Handwritten Document Image Binarization Dataset

Kaustubh Sadekar , Ashish Tiwari , Prajwal Singh , Shanmuganathan Raman

分类：计算机视觉

2021-01-27

手写文档映像二值化由于书面内容和复杂的背景属性，如页面样式，纸张质量，污渍，阴影梯度和非均匀照明等复杂背景属性而挑战。虽然传统的阈值方法没有有效地推广在这种具有挑战性的真实情景中，但是在提供足够的训练数据时，基于深度的基于学习的方法表现得相对较好。但是，现有数据集的大小和多样性有限。这项工作提出了LS-HDIB - 一个大规模的手写文件映像二值化数据集，其中包含跨越众多真实情景的百万个文档图像。此外，我们介绍了一种新颖的技术，它使用自适应阈值和无缝克隆方法的组合来创建数据集，以准确的基础事实。通过广泛的定量和定性评估超过八种不同的基于深度学习的模型，我们在LS-HDIB数据集上培训并在看不见的图像上进行测试时，我们展示了这些模型的性能的增强。

translated by 谷歌翻译